近日,同盾科技人工智能研究院深度学习首席专家李宏宇做客雷锋网公开课,以《知识联邦:开创数据“可用不可见”新局面》为题进行分享。
关注微信公众号 AI金融评论 ,在公众号聊天框回复“听课”,进群可收看本节课程视频回放。
此前同盾在数据联邦、联邦学习和安全多方计算的基础上演化出统一框架体系“知识联邦”,并基于知识联邦体系发布了国产原创、自主可控的智邦平台(iBond)及《知识联邦白皮书》。
本次课程中,李宏宇详细讲述了知识联邦的技术细节,以及信用分评估、多头共债风险、用户体验A/B test等多个典型场景的联邦学习应用案例。
以下为李宏宇课程全场和互动问答精选,雷锋网AI金融评论做了不影响原意的编辑:
两年前,我们接触到区块链和联合建模中数据安全需求,就已在探索联邦学习应用。
近年来联邦学习热度变高,一个主要原因还是数据孤岛现象,不仅仅有逻辑上的存在,也有物理上的。不止特征变量是孤岛,也可能是更关键的学习当中的标签,形成了割裂的形象。
在机构间,尤其政府部门,很多数据没有充分共享。又比如医疗,保险公司希望用医院的数据做健康险或寿险的风险评估。银行和税务,也希望通过银税合作来获取客户的风险评估信息。
企业内部也如此:集团化的企业公司越来越大,子公司、分公司,就连部门内部的系统,都可能是自己分别开发的,数据之间完全孤立。
再微观一点,每个用户的数据都有很大的价值,想要生成一组通用的用户画像,要获取到足够多的用户数据非常困难。
消除行业数据孤岛现象,让数据相互之间协作起来,必然是未来发展趋势。
另一种现象,就是隐私换便利,数据不断地泄露导致诈骗。
为什么会不断泄露?很大的一个原因,现在免费使用一些APP时,使用前都要用户授权,获取相关数据。这些其实都是你的个人隐私,个别内部人员可能会拿着你的数据对外变现,产生诈骗行为。
用户隐私都赤裸裸暴露在网络的服务提供者面前,个人隐私当成商品买卖已经是非常普遍的现象。有调研显示,70%以上的社会公众对于当前他们的个人信息是没有安全感的。
近期也有传闻说国外黑客论坛在出售中国很多金融机构的信息。不一定真实,但很多人心里也会紧张。
现在国际上和国内上的立法慢慢出现,这两年中国在数据安全和隐私保护相关已经做了很大的工作。
2019年有数据安全管理办法,这也可能会是未来数据安全法的早期版本;数据交易服务安全要求也做了一些相应的新规定。今年3月份有个人金融信息保护技术的规范。
想要这些数据完全闭塞,不共享数据,这不现实,要把这些有经济价值的数据充分利用起来。这就要在数据的隐私性和便利性之间寻求平衡。也正是这样隐私保护的需求,未来会出现一系列新的技术浪潮。
有很多人对数据安全没有非常清晰的认识。这里我借用数据安全能力成熟度模型的定义来分享。
数据安全的核心,其实是以数据为中心的安全,它的目的仍然是保护数据的可用性、完整性和机密性。数据在安全的同时,要保证它可用。
合法合规的情况下,怎样做数据交易?它的定义是,在数据供需双方以数据商品作为交易对象。
这里的重点就是:数据商品是什么?直接拿原始数据买卖,属于数据商品,而对原始数据加工处理后的一些数据衍生产品也属于数据商品。
另外一个更被大家关心的,就是隐私保护,在国内更多时候会称之为个人信息。
什么是个人信息?所有能够单独或结合识别特定自然人身份的那些信息,甚至是反映活动情况的信息,都叫个人信息。
什么是共享?如果你是信息的控制者,你将信息共享给对方,就让对方拥有了控制权,在这之后你可能就没有撤回或是拒绝的权利了。
这是共享最大的一个痛点,新版的个人信息安全规范里面会看到很多关于信息共享的要求。
有用性,这是数据的一个非常重要的特点,就是数据对于应用一定要有具体的含义,要不然这个数据就没有价值了。
为打破数据割裂和避免隐私泄露,数据可用不可见就成为一个重要的目标。数据可用不可见,即充分利用对各方的数据,让数据保持对外开放,同时能够让数据不直接共享,不离开机构或个人。
在杨强老师的课程里有提到过,数据不动模型动,这是能够解决数据可用不可见的一种方式。但它的核心是要去训练一个模型。而数据可用不可见,不一定需要做建模这件事。
还有很多时候可能只是想做计算,这就不再是训练模型的事情,而是开放和不共享的问题。
开放不共享,就像国家之间在能源材料的合作中,每个国家有一些核心资源如铁矿石,类似于机构的基本生产数据。
很多国家禁止出口这种核心的资源,相当于是不能直接共享。但对于铁矿石加工后的钢铁制品,他们却开放出口的。
也就是说,数据经过加工之后,形成了一种半成品的形态,它是可以开放出去使用的,而不是用一种直接共享或直接访问原始数据的方式。
这样看来,我们其实可以也做到数据可用,但又不可见。换句话说就是,“懂你不认识你”。
“懂你不认识你”主要针对个人用户。举个例子,很多人的浏览习惯或行为会涉及到个人隐私,这些数据是不希望直接对外共享的。
但是我们又很希望能够获取到很多便利服务,让手机更懂自己,在需要的时候能够提供相应的推荐,让软件做得很智能、很贴心。这时就可以采用数据可用不可见的形式。
为了实现数据可用不可见这个目标,传统的中心化计算模式,也就是大数据经常会做的中心化聚集,把数据存储聚集再学习训练,已经不能满足要求。
中心化不可行,那就让数据分散在各个机构形成,依然保留着所谓的小数据模式——相对来讲是小数据,当然也有很多机构的数据量已经很大——采用分布式或去中心化方式计算或学习。
原始数据直接共享不可行,我们可以采用两种方式,一是对数据进行加密,加密后也不破坏原始数据的统计特性。
第二种方式,可以将数据知识化,也就是说将数据转化成为一种模型策略的知识,然后再把这些分散的知识聚合在一起,实现数据的可用。这就是知识联邦的大致构想。
知识联邦从名字上看,有清晰的两个主题:知识和联邦。
什么是知识?这个概念源自于我们谈论数据和信息。
数据一般被认为是原始素材,客观描述客观事物的数量、属性、位置等关系。
信息则是经过加工处理之后、具有逻辑关系的数据,通常会是对决策有价值。
知识,更多是在信息层上再进一步地归纳演绎之后,沉淀下来的有价值的信息。通常情况下,知识被认为是与决策有关的。
智慧是有了知识之后,才能进一步预测和判断未来,这可能是未来智慧城市或智慧决策的目标。
数据、信息和知识经常被混用,三者的界定和使用者有很大关系。
比如某个经过加工的数据,它可能对某人而言是一种信息,但对另外一个人来说可能只是一个数据。
在某种语境下产生的一个知识,在另外的语境里可能就是信息,甚至是根本没有任何意义的数据。
从知识再跳到联邦,其实联邦才是我们的重心,其实想做的事情,最终是希望通过一种安全的方式解决数据孤岛现象。
在知识联邦里,联邦本质其实是一种数据的安全交换协议。
之前还有数据联邦,其实它跟知识联邦差别很大。数据联邦更多是一种数据集成方法,它实际上就是联邦数据库系统,将不同来源的数据库集成之后方便查询。关键是它不涉及到隐私保护的机制。
知识联邦其实是一套理论框架体系,目的是将数据联合起来,转换成为有价值的知识,同时在联合的过程当中采用一些安全的数据交换协议。目的是有效利用各参与方的数据来进行知识的共创、共享和推理。
联邦学习更强调怎样训练、学习、建模,创造知识。但事实上还有很多常识、先验知识或领域知识不需要让机器学习就可以去共享的,比如多源知识推理,这也属于数据可用不可见。
在真正的实践中,我们采用一种弱中心化方式。过去强中心化大数据集成方式是不可行的,主要是安全存在很大隐患。
但完全的去中心化,也很难兼顾效率。尤其是在进行共识计算的时候,效率非常低。弱中心化方式更多是一种强中心化和去中心化的折衷,在中心节点只进行计算,不对数据集成存储,可以达到安全和效率的兼顾。
在知识联邦的框架体系里,我们不仅仅可以进行联邦学习,同时也可以进行安全多方计算,也可以进行安全多方共享和安全多方推理。
事实上整个知识联邦,与很多技术有一定关系,比如可执行环境和隐私计算。前者依托硬件,可以成为知识联邦的一种硬件化实现方式。
隐私计算更关注的,是隐私数据从产生、收集、保存,甚至到销毁,所有环节中保护(隐私数据)的方法。但在使用中,它偏于计算,而不包含学习的一些过程。
知识联邦可以根据不同方式进行分类。
分成跨样本的联邦、跨特征的联邦,甚至还有同时基于这两种形式的复合型联邦。
跨样本的联邦更多是同构的数据,数据特征一致,但数据拥有方式不同。跨特征的联邦,更多会存在不同的机构间。当然这还是要有相同的、有交集的用户才能进行跨特征的联邦。
除了这两种形式之外,更复杂的是既要跨样本又要跨特征复合型联邦。
根据联邦应用目的分类
可以分为联邦计算、联邦学习、联邦推理等。刚才提到联邦学习包含的主要是训练和预测两个阶段。
最早谷歌做联邦学习,更强调训练。训练结束后,模型预测直接发送到各个客户端的手机,用户自行预测。但在跨特征联邦,联邦训练和联邦预测都会遇到非常复杂的问题。
联邦计算,类似于安全多方计算。
联邦推理,更多是知识层上的推理过程。
比如疫情期间,为了调查患者周围的可疑人群,会涉及到很多数据,包括行为轨迹、社交网络、住宿交通等等。
但这些放在一起不是单纯再训练,是想把已有的知识做更多的知识演绎,推理出来新的知识,最终锁定嫌疑人群。
知识联邦也可以分为是个体间、机构内和机构间的联邦。机构间的联邦大家都比较熟悉了,机构内部的联邦其实也非常多。
比如大型跨国机构希望把在中国境内获取到的数据,能够帮助他们在东南亚、甚至是其他国家能够有更大的帮助,但会涉及跨境数据交换的问题,此时机构内的联邦就发生了。
分为信息层、模型层、认知层,和知识层联邦。
信息层:主要发生在联邦的数据转到第三方的服务器之前,需要先把所有数据加密,或通过某种形式转换成为有价值的信息。
模型层:发生在模型训练过程中,跟之前提到的联邦训练的过程实际上是一致的。
认知层:也发生在模型训练过程中,但并不把模型参数聚集在一起联动,而是把局部训练之后产生的粗浅认知进行联邦,变得更合理。
知识层:前面形成很多认知结果之后,把它存成知识库。这种知识库其实每一家机构都有,能够组成一个知识网络。如果在知识网络上不断推理和演绎,挖掘出更有价值的知识,能提前预判事情的发生,最终形成合理决策。
比如疫情爆发最终导致全球股票、期货大跌; 比如黑龙江等地成为二次爆发疫情的高风险区,其实这些都是知识推理的过程。
具体来看,信息层联邦在隐私保护方面,对加密技术要求更高。加密技术没有到位,就无法很好保护参与方数据。所以信息层的联邦一般要求数据脱敏加密之后,一定是以密文形式在第三方服务器上计算。
信息层更多应用在联邦计算的过程当中,比如金融经常出现的多头共债问题。在大产品的运维和升级过程中,经常会做的比如A/B test,这些都可以在信息层完成。
信息层也可以做联邦学习的工作,但它不是在每一个参与方向去做训练学习,而是把所有的密文数据直接放在第三方服务器上,再在密文上训练学习。
除此之外,还可以在信息层上做联邦检索。比如失信人员黑名单的查询,这也是一个普遍存在的需求。
跨特征联邦时,需要做的用户对齐可以在信息层上完成。
模型层,是用本地数据训练本地模型,把模型参数变化加密之后,传送到第三方进行聚合。
认知层,是在每一个参与方训练本地的数据,提取本地的模型的特征表达,加密之后上传到第三方服务器,实现集成。
这种应用主要出现在多模态智能信贷、智能身份认证。
在跨样本联邦中,认知层有点类似于机器学习里的集成学习,不过联邦会更关心数据隐私保护。
关于知识联邦的更多技术细节,可以查看我们近期发布的白皮书。
智邦平台的核心有四大模块,第一是任务场景。
现在平台中的任务场景还需要定制开发,一个场景需要定制一个模型。一个常见问题是,以前有很多面向不同任务场景已经建成的模型,现在还没有办法快速联邦化。
第二个模块是功能服务。智邦平台解决的是真实应用中会遇到的问题,比如模型发布,参与方之间的数据贡献怎么衡量?费用怎么统计?
第三个模块是开放计算平台。平台会模块化,并支持开放式、自动化建模,方便快速建模的操作。
第四个模块是基础设施。基础设施更多是一些通用组件,提供底层服务。计算平台和相关依赖采用容器化方式,能让部署更方便快速。
除了四个核心模块这里有两个关键的中间件,一是通信设施,二是数据交换沙箱。
跨样本联邦相对来讲比较容易落地,但跨特征联邦必须要有这么一个多元异构数据的交换沙箱才能够完成,尤其是在内网外网的通讯。这里涉及到的更多工作就不再展开了。
跨样本时,有很多深度模型、树模型都可以直接采用,但跨特征联邦很多模型需要定制。
尤其是在金融行业,大家更关心模型的可解释性,所以很多时候都不用深度模型,而会选择树模型。智邦平台就提供了包括深度模型、树模型在内的一些联邦算法可供用户选择
跨样本联邦中还有一个常见问题是,用户数据太少,也就是小样本的问题。平台中也提供了基于小样本进行联邦(学习)的方案。
简单来讲,平台三大亮点是:安全、智能和实用。平台通过联邦的数据交换沙箱和安全交换协议来解决安全性问题;平台提供多种智能模型供大家自由选择;同时从贡献的评估到计费,平台提供了一系列功能解决实际应用问题。
在网络安全方面,将网络安全域划分成参与方的私有域、交换域和联邦域三部分,数据交换发展在交换域,联邦集成是在联邦域完成。
在数据安全和隐私保护方面,从隐私数据处理到模型数据的传输,平台提供了多种安全加密方式,保证不同机构间交集外所有用户数据的安全性。
不过对于联邦平台的安全性和隐私保护等级,目前为止还没有一个类似等保的标准,能对平台工具进行等级认证。
事实上,对于数据安全,应该要从数据流通的全过程进行评估。对每一个涉及到数据隐私的地方,都要衡量采用的隐私技术所能达到的隐私保护等级。我们也在联合多家单位一起推动相关等级认证标准的确立。
在金融行业应用中,很多时候大家弄不清楚哪些数据属于隐私、敏感程度达到什么程度。今年3月,央行出台的个人金融信息保护技术规范,把很多金融信息分成了 C1、C2、C3的等级。根据敏感等级,可以采用不同的技术手段进行数据去标识化和脱敏。
在联邦应用中,经常会涉及到的主要还是C2级数据。C1级敏感数据,更多是标记信息。不过C1、C2、C3的划分也具有相对性,当相同的信息组合在一起,敏感度也会升级。所以考虑数据隐私保护,必须要在一开始就要做数据分级完整规划。
总的来说,智邦平台是参照知识联邦体系打造出来的一站式联邦平台。平台在算法能力方面,不仅支持联邦学习,还支持安全多方计算;也提供了非常朴实有效的一些算法;同时提供了联邦特征选择方法,来保证参与方的数据质量。
在安全机制方面,平台提供了多种加密算法,比如在数据安全对齐中,平台可以保证参与方交集外数据不会泄露。同时保证,标签信息在训练中不会参与传输。
而平台最核心的联邦数据安全交换沙箱则可以实现对数据标准化和脱敏处理,同时封装了一系列数据安全交换协议,供联邦使用。
在实施应用方面,平台在本地计算可以采用Spark计算方式,效率高,也方便和现有的机构大数据生态打通。同时系统采用容器化方式,方便部署实施。
统建模方式里,运营商如果没有y数据,无法单独建模;双方又都不可能暴露自己隐私数据。
智邦平台中会先由中间方协调者分发一个模型,然后分别基于本地的数据计算梯度。
尽管运营商没有标签信息,但平台在这里采用了计算换安全的方式,也是基于不经意传输(OT)方法,把所有可能梯度都汇集到有标签的一方,让它筛选和聚合。这时可以在y标签没有被传输的情况下,快速完成模型迭代。
当然,这可能会让计算成本高一点,但联邦建模的隐私性肯定是要远远大于传统联合建模。如果不考虑通信问题,这两种建模方式的收敛速度基本上一致。准确性也差不多。
企业信审相对更复杂,会有公开数据、自有数据或是第三方数据,各方数据汇集在一起,形成完整信息模型,这是很大的工作量,于是我们有了这样一个信审模型。
不过如果能利用调查、工商、司法等信息,可以进一步做联邦推理,这时的信审才能算是完整的。
这是典型的跨样本应用场景,要做的是无感认证。
简单说,输入密码的时候,我们每个人都有一些固定的输入行为习惯,这些行为习惯能通过学习方法提取出相应特征。
这就可以在密码保护的同时,加一层无感认证,在输密码的时候自动判断用户行为,判断输密码的是否为用户本人。
但是每个用户端不可能暴露自己的数据,同时也很难采集到每个用户很多行为数据,这就要用到基于小样本的联邦元学习。
联邦元学习的隐私性肯定会要大于非联邦方式;准确率也会比非元学习高很多。
很多机构都借贷评估时都会面临一个问题:这个用户有没有在其他家做过贷款?他的风险是不是已经透支得差不多了?
这时就希望能得到很多其他机构的数据,这个过程通常不需要去训练学习,而是会利用一些简单的知识进行判断。
累计借贷风险可以通过安全的统计计算方式,在保证各家数据隐私不会泄露的前提下,汇总计算出该用户的累计借贷风险。
在自动化大运维平台体系做A/B test,我们通常会分流出来一批用户,然后判断软件上的某些改变会否让他们的浏览行为习惯发生变化,是否会对他们有偏好上的影响。
我们可以统计用户的信息,但不是直接收集用户操作行为数据,而是分别在用户端对他们的行为习惯进行统计计算,最终形成整体的统计特征作为统筹决策的依据。
现实应用中,我们会面对很多分散的小数据,知识联邦的目标是通过安全多方计算和学习,做到数据可用不可见,同时知识共建可共享。
智邦平台作为知识联邦参照实现的联邦平台,会逐渐形成一套开放的操作系统,用户可以组建和参与不同的任务联盟,或者从模型商店中选用不同的模型。系统逐步开放开源给大家,让更多用户参与其中,这也是我们整个智能开放操作系统的愿景。
智邦平台对银行消金非常有价值,可以持续提升其核心竞争力,并提高其风控质量,让其数据价值变现。同时,也可以帮助相应机构提升行业影响力,并满足监管对于数据安全和隐私保护的要求。
总结一下,知识联邦的落地实施有三个重点:
首先是连接,也就是连接多方,让多方参与进来,才会有联邦数据安全交换的问题。其次是智能,安全多方应用最终目的还是智能化应用,从多方数据中安全的提取和利用智能知识才是关键。最后是开放,一个体系框架的发展和落地应用需要大家广泛的参与。
知识联邦是一个开放的体系,智邦平台也是一个开放的平台,未来会逐渐开放出去,和大家合作共赢。
问:一个子模型被攻击,在模型联盟过程当中会造成怎样的安全风险?是否存在较完善的防御策略?
李宏宇:其实模型攻防策略,不只是在联邦过程产生,现在很多模型训练都会遇到,这些策略都可以在联邦中使用。如果子模型只是被几次攻击,而整体数据量比较大的话,在长时间的训练过程中,攻击的影响会逐渐退化掉。
另外,如果其他参与方很多且数据量非常大的时候,一个参与方的模型被攻击,相对影响还是会有,但不会那么明显。
问:怎么分配利益?如何衡量各方的贡献?
李宏宇:智邦平台提供了联邦特征选择的方法,来保证用户数据质量,遴选那些对于整个模型精度有提升、有帮助的特征。模型精度提升的效果就是衡量贡献并进行利益分配的一个标准。贡献度评估方法其实有很多种,但在联邦应用中落地实施还需要进一步技术突破。
问:联邦学习或知识联盟是否只是大厂的机会?
李宏宇:倒不一定。联合建模也好,做联邦也好,这都是应用导向的。但现在最困难的一个问题是,怎样把这机构间多元异构数据给标准化和统一化,这才是最大的痛点,大厂也不一定能解决这个问题。
现在的关键是谁能把这个问题解决掉,其它建模或计算就都可以在这样的基础平台上去完成,并创造价值。各种企业都有机会。
问:准确性提升算谁的?
李宏宇:在整个联邦过程中,模型提升通常有一定的应用目的。通常会有一家模型需求方,用自有的数据训练出的准确度不高,但是如果引入其它联邦方的数据时,精度就会大大提升。这个时候准确性提升的功劳是谁的?这个问题显而易见,难的是如何量化这种贡献。
问:样本对齐和加密模型训练与对策,区别在哪里?
李宏宇:样本对齐是发生在模型联邦训练之前的一个工作,主要是寻找参与方之间的共同用户(交集)。样本对齐面临最多的问题是,参与方都不希望交集外的数据还被泄露出去。现在智邦平台做到已经达成了这个目标。
样本对齐要想做到充分安全,也就是交集内用户也不对外可见,还是有很大挑战的,这需要与训练过程结合在一起才能实现。
后台回复“知识联邦” ,即可获得完整版《知识联邦白皮书》。
雷锋网雷锋网雷锋网